使用 Google AI Studio 生成語音檔

TLDR

工具定位：Gemini 為個人助手，適合日常任務；Google AI Studio 為開發者工作站，提供專業參數與語音生成功能。
隱私建議：若處理敏感內容，請在 AI Studio 設定計費專案（Set up billing），以確保資料不被用於模型訓練。
計費模式：AI Studio 提供免費配額，超出後採隨用隨付制。
參數調整：Temperature 建議維持預設值 1，過低可能導致語音異常或機器音。
腳本優化：中英文間加入半形空格可提升發音準確度；段落間勿使用過多空行，以免模型誤判結束。
適用場景：適合 Podcast、有聲內容或演講練習；不適合需逐字精確朗讀的法律或技術文件。

工具定位與隱私差異

在選擇工具時，需區分 Gemini 與 Google AI Studio 的定位差異：

Gemini：個人數位助手，介面直覺，整合 Google 生態系服務。
AI Studio：開發者工作站，提供專業參數控制與 Generate speech 等進階功能。

隱私與計費注意事項：

Gemini：預設會使用對話資料訓練模型，關閉「活動紀錄」雖可保護隱私，但會失去對話儲存功能。
AI Studio：免費配額下資料會用於訓練。若要確保隱私，務必設定計費專案（Set up billing），此模式下輸入資料不會被用於訓練。

WARNING

若處理敏感內容或在意隱私，建議在 AI Studio 設定計費專案。

操作流程

若要將文字轉換為擬真的 AI 語音，請依循以下步驟：

進入 Google AI Studio，點擊左側「Playground」並選擇「Audio」分類，選取「Gemini 2.5 Pro Preview TTS」。
在 Text 輸入框貼上腳本。
於設定欄位選擇 Voice（語音角色）。
點擊「Run Ctrl + ↵」執行運算。
試聽後，點擊右側三點圖示（⋮）下載 .wav 檔案。

ai studio navigation

ai studio audio player

WARNING

若短時間內大量生成，可能遇到 Failed to generate content: user has exceeded quota. Please try again later. 錯誤，代表額度用完，請稍後再試。

參數設定說明

Mode（模式選擇）

Single-speaker audio：單人腳本。
Multi-speaker audio：多人腳本（目前限制兩人）。

Model settings：Temperature

此參數控制語音生成的隨機性（範圍 0 ~ 2，預設 1）。

踩雷紀錄：實測發現將 Temperature 調低（低於 0.6 ~ 0.7）時，容易發生「前段正常，後段突然靜音或產生無意義噪音」的狀況，且語氣容易出現機器音。
建議做法：除非有耐心反覆測試極限值，否則建議維持預設值 1。

Text（腳本內容優化）

中英夾雜：在中文與英文單字間加入半形空格，能協助 AI 更精準切換語系。
段落停頓：段落間空行代表停頓，但請勿連續超過兩行，否則可能導致語音提前結束。
時長限制：單次生成上限約 11 分鐘。若內容長度接近上限，建議重新執行，因每次語速略有不同。

TIP

由於訓練資料中大陸用語佔比較高，系統可能自動將台灣用語替換（例如「堆疊」變「堆棧」）。目前無完美解法，建議接受此限制。

腳本範例

以下為製作語音內容時的設定參考：

Style instructions

text

請用生動、熱情且自然的對話語氣。中文語調請保持柔和、親切，英文請用標準美式口音。

Text

text

歡迎收聽軟體工程師英語的第一集。今天我們的主題是 Git 版本控制。

版本控制
Version Control
例句：Git is the most popular distributed version control system.
Git 是最受歡迎的分散式版本控制系統。

總結

Google AI Studio 的 Generate speech 具備「理解並演繹」腳本的能力，而非單純逐字朗讀。

適合情境：製作 Podcast、有聲書、報告練習或劇本試讀。
不適合情境：法律文件、技術規格書等需要完全忠於原文的逐字朗讀內容，建議改用傳統 TTS 工具。

異動歷程

2025-12-25
- 初版文件建立。

使用 Google AI Studio 生成語音檔 ​

TLDR ​

工具定位與隱私差異 ​

操作流程 ​

參數設定說明 ​

Mode（模式選擇） ​

Model settings：Temperature ​

Text（腳本內容優化） ​

腳本範例 ​

總結 ​

異動歷程 ​